🤔Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса
Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.
🛠Как с этим справиться
1. Усиливаем вклад миноритарного класса в функцию потерь — Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.
2. Применяем регуляризацию на неразмеченных данных — Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.
3. Активный отбор редких примеров среди неразмеченного пула — Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.
4. Анализируем предсказания модели на неразмеченных данных — Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.
🤔Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса
Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.
🛠Как с этим справиться
1. Усиливаем вклад миноритарного класса в функцию потерь — Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.
2. Применяем регуляризацию на неразмеченных данных — Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.
3. Активный отбор редких примеров среди неразмеченного пула — Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.
4. Анализируем предсказания модели на неразмеченных данных — Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.
A leaked Telegram discussion by 50 so-called crypto influencers has exposed the extraordinary steps they take in order to profit on the back off unsuspecting defi investors. According to a leaked screenshot of the chat, an elaborate plan to defraud defi investors using the worthless “$Few” tokens had been hatched. $Few tokens would be airdropped to some of the influencers who in turn promoted these to unsuspecting followers on Twitter.
The Singapore stock market has alternated between positive and negative finishes through the last five trading days since the end of the two-day winning streak in which it had added more than a dozen points or 0.4 percent. The Straits Times Index now sits just above the 3,060-point plateau and it's likely to see a narrow trading range on Monday.
Библиотека собеса по Data Science | вопросы с собеседований from sg